翼方健数|隐私安全计算助力数据共享 驱动AI药物研发
我国政府高度重视数据对于生产力推动的巨大潜力,已经将数据与土地、劳动力、资本、技术等传统要素并列为生产要素。
在每天的临床诊疗、生物样本检测的过程中,产生着大量的医疗及生物组学数据,如何充分利用这些数据为AI药物研发服务,更高效率地开发出有效的创新药物,实现精准治疗,进而改变人类和疾病的关系,成为了发挥数据要素价值的重中之重。
数据的经济学与非经济学特征
数据要素相较于其他生产要素具有十分独特的属性,包括经济学及非经济学特征。
· 虚拟性:数据是一种虚拟的、非物质化的商品。
· 非竞争性:如果我和你分享了我的数据,你我就同时拥有了这些数据,也就是说,一个使用者对该商品的消费不减少该商品对于其他使用者的供应。这种商品特性被经济学家称为“非竞争性”。
· 高昂的固定成本和低廉的可变成本:首次收集、组织数据和建设数据处理流程的成本通常很高;但是一旦生成可用数据,复制成本非常低。
· 外连性:数据的价值往往取决于数据集本身之外的因素。它可能取决于使用时间,实际应用或使用目的,该数据所连接的其他数据集等。总之,数据的价值具有天然的“网络效应”。
· 生成性:数据的价值通常在被使用时“生成”。
数据的非经济学特征包括:
· 隐私:消费者的隐私保护越来越受到关注。近年来,世界先进经济体(美国、欧洲)普遍在迅速建立个人数据使用的相关法规。
· 合规性:各类法规的继续收紧和扩展将会给企业造成合规性负担,同时也会启发对于业务模式和社会影响的思考。
· 机密:企业数据就像知识产权、商业机密一样,受到严格保护。
· 国家:政府对于涉及国家安全和利益的数据越来越敏感。不共享数据,共享数据的价值
隐私安全计算是一个全新的概念。它包含一整套技术方案,解决了数据保护和数据共享这两个相互之间存在冲突的需求。隐私安全计算成功地把数据孤岛合并成为数据大陆,同时保护了数据的所有权、数据安全和隐私、并解决了价值的合理分配。
该技术使得我们绝不在没有保护、没有控制的情况下共享数据——尤其对于特定的数据,例如企业数据、私人数据、隐私数据。不受控制的数据共享即意味着失控:对于数据使用行为的失控,数据所有者得不到应有的回报,商业机密和知识产权也可能因此泄露。
虽然数据本身不能共享,数据的价值却应该最大程度地得到共享。当不同来源、不同类型的各种数据融合在一起时,可以产生1+1大于2的价值。当数据的需求方提出数据共享的时候,他们真正想要的是共享数据的价值。
与传统的需要中心化原始数据的模式相比,在隐私安全计算模式下,原始数据无需离开所有方的数据平台,平台只需输出数据的价值。这一模式在保护了原始数据安全不流通的前提下,充分融合多来源的、不同结构的数据,让数据充分发挥出其应有的巨大价值。
在国外,已有较为成熟的在医药领域实现多方数据协作用于药物研发场景的案例。如由杨森制药发起的著名MELLODY(Machine Learning Ledger Orchestration for Drug Discovery)药物研发项目,在联邦学习(隐私安全计算的一种)模式下,10家大型制药企业参与了该项目,包括安进、安斯泰来、阿斯利康、拜耳、勃林格殷格翰、葛兰素史克、杨森制药、默克、诺华和施维雅。这些高度竞争的企业能够通过联邦学习技术共享数据的研发价值。联邦学习在本地设备上大批量地训练AI模型,然后将这些学习结果传输回一个全局模型,而数据不需要离开任何特定的设备。因此,参与项目的企业无需担忧原始数据的安全问题。
近年来,国内隐私安全计算技术正备受瞩目,其中也不乏已经成熟并产品化的数据开放应用平台,如翼方健数的翼数坊平台XDP。
隐私安全计算平台的设计
从根本上说,隐私安全计算平台与通用的云计算平台的区别在于:隐私安全计算平台实现了多种世界领先的核心技术。原生支持包括沙箱计算,可信任计算环境,联邦学习(包括翼数学习),数据生成,多方安全计算,差分隐私等核心隐私安全计算技术。
隐私安全计算平台应能够构建起一个生态系统,是一种以开放数据平台的形式实现的数据生态系统。这里所说的“开放”有多重含义:首先,用户可以自由探查和浏览数据资源,找到用户需要的数据,并在数据所有者的授权下使用这些数据;其次,由于所有数据都受到保护,并且只有授权后才能使用,任何人都可以在平台上开设用户账户,无论其实际诉求是什么;第三,数据平台也向第三方应用程序开放,任何平台用户都可以安装和部署应用程序。
隐私安全计算平台应当具有内置的数据安全和授权机制,以确保将数据交给第三方处理是安全的。从一开始设计就遵循GDPR设定,即所有数据访问和使用都必须得到数据所有者的明确授权。从技术上讲,隐私安全计算平台通过建立威胁模型来确保数据安全和授权,将所有第三方应用和服务都按照不可信处理,严格控制系统性风险。
平台应该为数据的“联盟”提供相应设计,为形成数据大陆找到切实可行的方案。平台既可以作为独立实例部署在本地,也可以通过协议,形成多地或云上的联合部署,每个实例都可以提供数据存储和计算。面对用户,平台应为数据和计算资源提供一个抽象层,在底层通过跨多个实例的容器化来协调第三方应用和服务。
同时,针对各种不同数据计算场景,平台需要考量到AI应用。平台应为数据协作和开发第三方应用所做的深入设计,为AI应用开发人员提供便利环境。数据大陆提供的丰富的数据和多样化的数据源使得平台训练出来的AI模型有更好的可移植性;GPU辅助的弹性计算使得大规模并行模型训练和部署成为可能。
隐私安全计算平台还应为用户提供完善的数据安全保护、为第三方应用程序提供友好的计算和开发环境,以及为数据生态中各方设计变现机制,以完全满足客户对于数据共享和协作的要求。
----------- End -----------
感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或姓名-学校-职务/研究方向。
AI药物发现的数据共享模式探索:以十大顶尖药企参加的MELLODDY项目为例
Drug Discov Today|量子计算在药物发现中的潜力:早期的行业动态
Nature:优于联邦学习的医疗数据共享技术Swarm Learning及应用案例
Drug Discov Today综述|分子从头设计和生成模型
AI药物发现公司继续寻求最佳商业模式
郭天南|人工智能+蛋白质组学:药物研发的生物学底层变革
Nat Comput Sci综述|生物分子建模在技术时代蓬勃发展
人工智能在药物研发中的应用
鄂维南院士解读机器学习与科学计算:促进科学研究从「小农作坊」到「安卓」转变
斯隆奖获得者李婧翌:AI+X并非总是有效,生物数据量小、噪音大,可解释性是关键